En estadística , un percentil k -ésimo , también conocido como puntuación percentil o percentil , es una puntuación por debajo de la cual cae un porcentaje dado k de puntuaciones en su distribución de frecuencia (definición " exclusiva ") o una puntuación en o por debajo de la cual cae un porcentaje dado (definición " inclusiva "). Los percentiles se expresan en la misma unidad de medida que las puntuaciones de entrada, no en porcentaje ; por ejemplo, si las puntuaciones se refieren al peso humano , los percentiles correspondientes se expresarán en kilogramos o libras. En el límite de un tamaño de muestra infinito , el percentil se aproxima a la función percentil , la inversa de la función de distribución acumulativa .
Los percentiles son un tipo de cuantiles , que se obtienen adoptando una subdivisión en 100 grupos. El percentil 25 también se conoce como primer cuartil ( Q 1 ), el percentil 50 como mediana o segundo cuartil ( Q 2 ), y el percentil 75 como tercer cuartil ( Q 3 ). Por ejemplo, el percentil 50 (mediana) es la puntuación por debajo (o en o por debajo , según la definición) de la cual se encuentran el 50% de las puntuaciones de la distribución.
Una cantidad relacionada es el rango percentil de una puntuación, expresado en porcentaje , que representa la fracción de puntuaciones en su distribución que son menores que ella, una definición exclusiva. Las puntuaciones percentiles y los rangos percentiles se utilizan a menudo en el informe de las puntuaciones de las pruebas de referencia normativa , pero, como se acaba de señalar, no son lo mismo. Para los rangos percentiles, se proporciona una puntuación y se calcula un porcentaje. Los rangos percentiles son exclusivos: si el rango percentil para una puntuación específica es 90%, entonces el 90% de las puntuaciones fueron inferiores. Por el contrario, para los percentiles se proporciona un porcentaje y se determina una puntuación correspondiente, que puede ser exclusiva o inclusiva. La puntuación para un porcentaje específico (p. ej., 90.º) indica una puntuación por debajo de la cual (definición exclusiva) o en o por debajo de la cual (definición inclusiva) caen otras puntuaciones en la distribución.
No existe una definición estándar de percentil; [1] [2] [3] sin embargo, todas las definiciones arrojan resultados similares cuando el número de observaciones es muy grande y la distribución de probabilidad es continua. [4] En el límite, a medida que el tamaño de la muestra se acerca al infinito, el percentil 100 p ( 0< p <1) se aproxima a la inversa de la función de distribución acumulativa (CDF) así formada, evaluada en p , ya que p se aproxima a la CDF. Esto puede verse como una consecuencia del teorema de Glivenko-Cantelli . A continuación se dan algunos métodos para calcular los percentiles.
Los métodos que se dan en la sección de métodos de cálculo (a continuación) son aproximaciones para su uso en estadísticas de muestras pequeñas. En términos generales, para poblaciones muy grandes que siguen una distribución normal , los percentiles a menudo se pueden representar con referencia a un gráfico de curva normal. La distribución normal se traza a lo largo de un eje escalado a desviaciones estándar o unidades sigma ( ). Matemáticamente, la distribución normal se extiende hasta el infinito negativo a la izquierda y el infinito positivo a la derecha. Sin embargo, tenga en cuenta que solo una proporción muy pequeña de individuos en una población quedará fuera del rango de −3 σ a +3 σ . Por ejemplo, con alturas humanas muy pocas personas están por encima del nivel de altura +3 σ .
Los percentiles representan el área bajo la curva normal, que aumenta de izquierda a derecha. Cada desviación estándar representa un percentil fijo. Por lo tanto, redondeando a dos decimales, −3 σ es el percentil 0,13, −2 σ el percentil 2,28, −1 σ el percentil 15,87, 0 σ el percentil 50 (tanto la media como la mediana de la distribución), +1 σ el percentil 84,13, +2 σ el percentil 97,72 y +3 σ el percentil 99,87. Esto está relacionado con la regla 68-95-99,7 o regla de las tres sigmas. Téngase en cuenta que, en teoría, el percentil 0 cae en el infinito negativo y el percentil 100 en el infinito positivo, aunque en muchas aplicaciones prácticas, como los resultados de pruebas, se aplican límites inferiores y/o superiores naturales.
Cuando los ISP facturan un ancho de banda de Internet "burstable" , el percentil 95 o 98 generalmente elimina el 5 % o 2 % superior de los picos de ancho de banda de cada mes y luego factura según la tarifa más cercana. De esta manera, se ignoran los picos poco frecuentes y se le cobra al cliente de una manera más justa. La razón por la que esta estadística es tan útil para medir el rendimiento de los datos es que brinda una imagen muy precisa del costo del ancho de banda. El percentil 95 indica que el 95 % del tiempo, el uso está por debajo de esta cantidad: por lo tanto, el 5 % restante del tiempo, el uso está por encima de esa cantidad.
Los médicos a menudo utilizan el peso y la altura de los bebés y los niños para evaluar su crecimiento en comparación con los promedios y percentiles nacionales que se encuentran en las tablas de crecimiento .
El percentil 85 de la velocidad del tráfico en una carretera se utiliza a menudo como guía para establecer límites de velocidad y evaluar si dicho límite es demasiado alto o bajo. [5] [6]
En finanzas, el valor en riesgo es una medida estándar para evaluar (de manera dependiente del modelo) la cantidad por debajo de la cual no se espera que el valor de la cartera caiga dentro de un período de tiempo determinado y dado un valor de confianza.
Existen muchas fórmulas o algoritmos [7] para calcular una puntuación percentil. Hyndman y Fan [1] identificaron nueve y la mayoría de los programas estadísticos y de hojas de cálculo utilizan uno de los métodos que describen. [8] Los algoritmos devuelven el valor de una puntuación que existe en el conjunto de puntuaciones (métodos de rango más cercano) o interpolan entre puntuaciones existentes y son excluyentes o inclusivos.
La figura muestra una distribución de 10 puntuaciones, ilustra las puntuaciones percentiles que resultan de estos diferentes algoritmos y sirve como introducción a los ejemplos que se dan a continuación. Los más simples son los métodos de rango más cercano que devuelven una puntuación de la distribución, aunque en comparación con los métodos de interpolación, los resultados pueden ser un poco rudimentarios. La tabla de métodos de rango más cercano muestra los pasos computacionales para los métodos exclusivos e inclusivos.
Los métodos de interpolación, como su nombre lo indica, pueden devolver una puntuación que se encuentra entre las puntuaciones de la distribución. Los algoritmos que utilizan los programas estadísticos suelen utilizar métodos de interpolación, por ejemplo, las funciones percentile.exc y percentile.inc de Microsoft Excel. La tabla Métodos interpolados muestra los pasos de cálculo.
Una definición de percentil, que se da a menudo en los textos, es que el percentil P de una lista de N valores ordenados (ordenados de menor a mayor) es el valor más pequeño de la lista de modo que no más del P por ciento de los datos sea estrictamente menor que el valor y al menos el P por ciento de los datos sea menor o igual a ese valor. Esto se obtiene calculando primero el rango ordinal y luego tomando el valor de la lista ordenada que corresponde a ese rango. El rango ordinal n se calcula utilizando esta fórmula
Una alternativa al redondeo utilizada en muchas aplicaciones es utilizar la interpolación lineal entre rangos adyacentes.
Todas las variantes siguientes tienen lo siguiente en común. Dadas las estadísticas de pedidos
Buscamos una función de interpolación lineal que pase por los puntos . Esto se logra simplemente mediante
donde usa la función floor para representar la parte integral de x positivo , mientras que usa la función mod para representar su parte fraccionaria (el resto después de la división por 1). (Tenga en cuenta que, aunque en el punto final , no está definido, no necesita estarlo porque se multiplica por ). Como podemos ver, x es la versión continua del subíndice i , que interpola linealmente v entre nodos adyacentes.
Existen dos formas en las que los enfoques de las variantes difieren. La primera es la relación lineal entre el rango x , el rango porcentual y una constante que es una función del tamaño de la muestra N :
Existe el requisito adicional de que el punto medio del rango , correspondiente a la mediana , se encuentre en :
y nuestra función revisada ahora tiene solo un grado de libertad, luciendo así:
La segunda forma en que difieren las variantes está en la definición de la función cerca de los márgenes del rango de p : debería producir, o verse forzada a producir, un resultado en el rango , lo que puede significar la ausencia de una correspondencia biunívoca en la región más amplia. Un autor ha sugerido una opción de donde ξ es la forma de la distribución generalizada de valores extremos , que es el límite de valores extremos de la distribución muestreada.
(Fuentes: Función "prctile" de Matlab, [9] [10] )
dónde
Además, dejemos que
La relación inversa está restringida a una región más estrecha:
[Fuente: Algunos paquetes de software, incluidos NumPy [11] y Microsoft Excel [3] (hasta la versión 2013 inclusive mediante la función PERCENTILE.INC). Señalado como una alternativa por el NIST . [8] ]
Tenga en cuenta que la relación es uno a uno para , la única de las tres variantes con esta propiedad; de ahí el sufijo "INC", para inclusivo , en la función de Excel.
(La variante principal recomendada por NIST . [8] Adoptada por Microsoft Excel desde 2010 mediante la función PERCENTIL.EXC. Sin embargo, como indica el sufijo "EXC", la versión de Excel excluye ambos puntos finales del rango de p , es decir, , mientras que la versión "INC", la segunda variante, no lo hace; de hecho, cualquier número menor que también se excluye y causaría un error).
La inversa está restringida a una región más estrecha:
Además de la función de percentil, también existe un percentil ponderado , en el que se cuenta el porcentaje del peso total en lugar del número total. No existe una función estándar para un percentil ponderado. Un método extiende el enfoque anterior de manera natural.
Supongamos que tenemos pesos positivos asociados, respectivamente, con nuestros N valores de muestra ordenados. Sea
la suma de los pesos. Luego, las fórmulas anteriores se generalizan tomando
o
y
El percentil ponderado del 50% se conoce como mediana ponderada .